پیش بیني شاخص بورس اوراق بهادار تهران با تركیب روشهاي آنالیز مولفههاي اصلي رگرسیون بردارپشتیبان و حركت تجمعي ذرات

راهبرد مديريت مالي سال چهارم شماره پانزدهم دانشگاه الزهرا )س( دانشكده علوم اجتماعي و اقتصادي تاريخ دريافت: 1395/06/24 تاريخ تصويب: 1395/08/18 زمستان 1395 صص 1-23 پیش بیني شاخص بورس اوراق بهادار تهران با تركیب روشهاي آنالیز 1 مولفههاي اصلي رگرسیون بردارپشتیبان و حركت تجمعي ذرات چكیده رضا راعي 2 علي نیک عهد قصیرائي 3 و مصطفي حبیبي 4 پیشبینی نوسانهای آینده شاخص سهام میتواند اطالعاتی در مورد روند آینده بازار سرمایه فراهم نماید. در این پژوهش به منظور افزایش دقت پیشبینی شاخص بورس اوراق بهادار تهران ترکیبی از روشهای آماری و هوش مصنوعی به کار رفته است. مدل اصلی پیشبینی در این پژوهش رگرسیون بردار پشتیبان بهینه شده به وسیله الگوریتم حرکت تجمعی ذرات میباشد. در برازش مدل رگرسیون بردار پشتیبان سه پارامتر توضیحی وجود دارد که باید ترکیبی از این سه پارامتر توسط کاربر و به صورت آزمایش و خطا انتخاب شود تا دقت مدل را به بیشترین حد خود برساند. با توجه به زمانبر بودن و کارایی پایین انتخاب پارامتر توسط کاربر برای انتخاب ترکیب بهینه پارامترهای مدل رگرسیون بردار پشتیبان از روش بهینهسازی حرکت تجمعی ذرات استفاده شده است که الگوریتمی قوی در حوزه بهینهسازی میباشد. با توجه به حجم زیاد دادههای ورودی به مدل برای کاهش زمان یادگیری و افزایش دقت پیشبینی با استفاده از روش آنالیز مولفههای اصلی پیشپردازش روی متغیرهای ورودی صورت گرفته و به مولفههای اصلی تبدبل شده است. نتایج بدست آمده نشان داد که پیشپردازش روی دادها خطای پیشبینی مدل را به طور قابل مالحظهای کاهش داده است. واژههاي كلیدي: شاخص بورس آنالیز مولفههای اصلی رگرسیون بردار پشتیبان بهینهسازی حرکت تجمعی ذرات پیشبینی طبقه بندی موضوعی: G10,G19,G17,C02.1 کد DOI مقاله: 10.22051/jfm.2017.12410.1175 2. استاد دانشگاه تهران دانشکده مدیریت گروه مدیریت مالی و بیمه Email: raei@ut.ac.ir 3. کارشناس ارشد مدیریت مالی دانشگاه تهران Email: h.nikahd@gmail.com 4. دانشجوی کارشناسی ارشد مدیریت مالی دانشگاه تهران نویسنده مسئول Email: mostafahabibi_68@yahoo.com

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 2 مقدمه بورس اوراق بهادار مکانی است که در آن پساندازهای راکد جمعآوری شده و در تامین مالی پروژههای سرمایهگذاری بلند مدت استفاده میشود. افراد دارای پساندازهای راکد بازدهی سرمایهگذاری در بورس را با سایرگزینههای سرمایه گذاری(سرمایهگذاری در بخش مسکن سرمایهگذاری در بانك یك از سرمایهگذاریهای طال تولید مستقیم و. ) مقایسه کرده و با توجه به ممکن تصمیم گیری میکنند. تصمیمگیری درست ریسك و بازده هر نیازمند اطالعات است. این اطالعات همیشه بهطور کامل در دسترس نیست. بنابراین برای تصمیمگیری نیاز به پیشبینی داریم. مسئله پیشبینی شاخص سهام از دیرباز مورد توجه پژوهشگران بازار سرمایه قرار داشته و بدین منظور از مدلهای خطی و غیرخطی زیادی استفاده شده است. اگر پیشبینی شاخص سهام به درستی اطالعات مربوط به روند آتی این متغیر را منعکس کند میتوان ازآن به عنوان یك متغیر پیشرو برای پیشبینی نوسان فعالیتهای اقتصادی استفادهکرد. اما از انجایی که متغیرهای زیاد اثرگذار بر روی شاخص بازار اوراق بهادار را میتوان شناسایی کرد و همچنین به دلیل این که سری زمانی شاخص از یك الگوی خطی پیروی نمیکند برای کاهش خطای پیشبینی در این پژوهش ترکیبی از روشهای آماری و هوش مصنوعی استفاده شده است. در این پژوهش ابتدا از روش تجزیه و تحلیل مولفههای اساسی( PCA ) 1 برای پاالیش اولیه دادهها استفاده شده است. سپس با استفاده از رگرسیون بردار پشتیبان( SVR ) 2 که نوع خاصی از ماشینهای بردار پشتیبان( SVM ) 3 میباشد به پیشبینی شاخص اقدام شده است. در نهایت با استفاده از روش بهینهسازی حرکت تجمعی ذرات( PSO ) 4 که یك روش بهینهسازی تکاملی میباشد پارامترهای مدلSVR طوری انتخاب شده که خطای پیشبینی به کمترین حد خود برسد. مباني نظري و مروري بر پیشینه پژوهش تحلیل مولفه اصلی تبیین ساختار واریانس-کوواریانس با چند ترکیب خطی از متغیرهای اصلی سر و کار دارد. اهداف کلی آن عبارتند از 1 ک- اهش حجم دادهها و 2- تعبیر و تفسیر آنها. 1. Principal component analyses 2. Support Vector Regression 3. Support Vector Machine 4. Particle Swarm Optimization

3 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... اگر چه برای مطالعه تغییرپذیری کل سیستم p مولفه الزم است ولی بیشتر این تغییرپذیری را میتوان با تعداد کمتر برای مثال k مولفه اصلی بیان نمود. در این صورت میزان اطالع موجود در k مولفه )تقریبا( مانند میزان اطالع در p متغیر اولیه است. بنابراین k مولفه اصلی را میتوان به جای p متغیر اولیه به کار برد و مجموعه دادههای اولیه شامل n اندازه روی دادههای شامل n اندازه درمورد k مولفه اصلی کاهش داد. p متغیر را به مجموعهای از تحلیل مولفههای اصلی وسیلهای برای رسیدن به هدف هستند تا اینکه خودشان هدف باشند. زیرا آنها اغلب به عنوان مراحل میانی در وضعیتهای بزرگتر به کار میآیند. برای مثال مولفههای اصلی میتوانند ورودیهای یك رگرسیون چندگانه یا تحلیل خوشهای باشند)جانسون 1378(. مولفههای اصلی از نظر جبری ترکیبات خطی ویژه p متغیر تصادفی X 1, X 2,, X p است. این ترکیبات خطی از نظر هندسی انتخاب یك دستگاه مختصات جدید را نشان میدهد که از دوران دستگاه اولیه با X 1, X 2,, X p به عنوان محورهای مختصات بهدست میآید. محورهای جدید جهتها را با بیشترین تغییرپذیری نشان میدهد و به بیان سادهتر ساختمان کوواریانسها را فراهم میکند. چنانکه مالحظه خواهیم نمود X 1, X 2,..., X p همبستگی ) ρ مولفههای اصلی تنها به ماتریس )یا ماتریس کوواریانس مربوط میشود. برای گسترش آنها گسترش نرمال چند متغیری الزم نیست. از سوی دیگر مولفههای اصلی جامعههای نرمال چند متغیری تعابیر مفیدی بر حسب بیضویهای چگالی ثابت دارد. عالوه بر این در جامعه نرمال چند متغیری استنباطهایی را از مولفههای نمونه میتوان به عمل آورد. X فرض کنید بردار تصادفی X X 1, 2,..., X p ویژه 0 p λ 1 λ 2 λ است. ترکیبات خطی زیر را در نظر میگیریم: دارای ماتریس کوواریانس Σ با مقادیر Y 1 = e 1 X = e 11 X 1 + e 21 X 2 + + e p1 X p Y 2 = e 2 X = e 12 X 1 + e 22 X 2 + + e p2 X p Y p = e p X = e 1p X 1 + e 2p X 2 + + e pp X p Var(Y i ) = e i Σe i i 1,2,..., p )1( در این صورت داریم: )2( Cov(Y i, Y k ) = e i Σe k i, k 1,2,..., p )3(

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 4 Y,1 Y2 هستند که واریانسهای آنها تا,..., Y p مولفههای اصلی آن ترکیبات خطی ناهمبسته حد ممکن بزرگ میباشد. نخستین مولفه اصلی یك ترکیب خطی با واریانس ماکزیمم است. یعنی Var(Y i ) = e 1 Σe 1 را ماکزیمم میکند. واریانس دومین مولفه اصلی کمتر از مولفه نخست میباشد. واریانس مولفه ها X p کاهش مییابد تا اینکه مولفه p ام کمترین واریانس را دارا دارد. از تجزیه و تحلیل مولفههای اصلی نتایج زیر حاصل میشود: نتیجه 1- فرض کنید Σ ماتریس کوواریانس بردار تصادفی X X 1, X باشد. 2,..., (, e1 باشد که ),( 2, e2 ),...,(, e 1 p p فرض کنید Σ دارای زوج مقدار ویژه-بردار ویژه ) 0 p λ 1 λ 2 λ مولفه اصلی iام با Y i = e i X = e 1i X 1 + e 2I X 2 + + e pi X p, i 1,2,..., p )4( داده شود. با این انتخابها داریم : Var(Y i ) = e i Σe i = λ i i 1,2,..., p )5( Cov (Y i Yو k ) = e i Σe k = 0 i k )6( Y i e i در صورتی که بعضی از λ i یکتا نخواهد بود. نتیجه 2 - فرض کنید فرض کنید ها برابر باشند انتخابهای بردار ضرایب مربوط و در نتیجه ماتریس کوواریانس بردار تصادفی Σ Σ باشد. فرض کنید دارای زوج مقدار ویژه-بردار ویژه باشد که 0 p λ 1 λ 2 λ باشد. همچنین فرض مولفههای اصلی باشند که در آن صورت داریم: σ 11 + σ 22 + + σ PP = Var(X i ) P i=1 = λ 1 + λ 2 + + λ p X X 1, X 2,..., X p (, e1 ),( 2, e2 ),...,(, e 1 p p ' ' ' Y1 e X, Y e X,..., کنید Y e X 1 2 2 p p )7( )

5 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... و در نتیجه نسبت واریانس کل مربوط به مولفه اصلی k ام عبارت است از: سهم کل واریانس جامعه مربوط به مولفه اصلی λ k = λ 1 + λ 2 + + λ p k 1,2,..., p )8( ) k ام ( نتیجه 3 - مولفههای اصلی بهدست آمده از ' ' ' Y1 e1 X, Y2 e2x,..., Yp ep اگر X ماتریس کوواریانس Σ باشد. آن گاه: ρ Yi,X k = e ki λ i σ kk i, k 1,2,..., p )9( ضرایب همبستگی بین مولفههای Yو i متغیرهای X k است. در اینجا زوجهای مقدار ویژه-بردار ویژه Σ هستند)جانسون 1378 (. (, e1 ),( 2, e2 ),...,(, e 1 p p ) روش ماشین بردار پشتیبان یکی از روشهای یادگیری ماشینی است که بر مبنای تئورری یادگیری آماری وپنیك 1 در دهه 90 میالدی توسط وپنیك و همکارانش عرضه شد. در SVM از استفاده شده است در حالی که سایر روشها از اصول اصول کمینهسازی ریسك ساختاری) SRM ( 2 بهره میبرند )لیپ 2005(. کمینهسازی ریسك تجربی )ERM( 3 از ماشین بردار پشتیبان به طور کلی در مسائل طبقهبندی دو یا چند کالسه و رگرسیون استفاده میشود. مانند بسیاری از روشهای یادگیری ماشینی در ماشین بردار پشتیبان نیز فرآیند ساخت مدل شامل دو مرحله آموزش و آزمایش میباشد. در انتهای فاز آموزش قابلیت تعمیمیابی مدل آموزش داده شده با استفاده از دادههای آزمایش ارزیابی میشود. -1 به طور خالصه ساز و کار اصلی SVM در حل مساله رگرسیون به صورت زیر بیان میشود: ماشین بردار میزند. پشتیبان تابع رگرسیون را با به کارگیری یك دسته تابع خطی تخمین 1. Vapnik 2. Structural Risk Minimization 3. Emprical Risk Minimization

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 6 ماشین بردارپشتیبان عملیات رگرسیون را با تابعی انجام میدهد که انحراف از مقدار واقعی در آن به میزان کمتر از ε مجاز است)تابع ضرر(. 1 3- ماشین بردارپشتیبان با کمینهکردن ریسك ساختاری بهترین جواب را میدهد )سنچس.)2003-2 ماشین در بردار پشتیبان مساله حل برای رگرسیون به خطی تابع یك نمونه شکل f(x) =< W. X > +b بر روی یك مجموعه شامل k مانند سعی در تخمین مقادیر خروجی بر مبنای مقادیر ( w, b) n x, y ),...,( x, y ) R, y R ( 1 1 k k ورودی دارد. در آن رابطه x بردار مقادیر ورودی و εr n R پارامترهای کنترل کننده تابع fهستند. > X <.W نشانگر ضرب داخلی میباشد. برای حل مساله رگرسیون تابع ضرر وپنیك مورد استفاده قرار میگیرد که در آن کمترین خطا به میزان ε قابل صرف نظر کردن است. این تابع ضرر را میتوان به صورت ذیل نمایش داد. L ε (X, Y, f(x)) = { y f(x) ε y f(x) ε 0 other wise ) 10( (y) L ε معرف تابع ضرر و ε خطای مجاز در تابع ضرر میباشد. پارامترهای کنترل کننده تابع رگرسیون بهینه با حل مساله بهینهسازی زیر بهدست میآیند. minimize ϕ(w subject to:, ϑ, ϑ) = w 2 ((W. X j ) + b) y j ε + θ j 2 + c ( ϑ j + ϑ) ) 11( y j ((W. X j ) + b) ε + θ j, * j j 0 1. Loss function

7 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... در رابطه 11 ϑ و ϑ متغیرهای slack هستند. این متغیرها به همراه تابع ضرر در شکل 1 نشان داده شدهاند )گان 1998(. شکل 1. تابع ضرر وپنیک و متغیرهای slack میشود. برای حل مساله بهینهسازی فوق به کمك تئوری الگرانژ تابع الگرانژ به صورت زیر نوشته L(a, a) = ε (a i + a i ) k i=1 k + y i (a i a i ) i=1 k 1 2 (a i i=1 k j=1, a i ) (a j, a j )(x i, x j ) ) 12( با بیشینه شدن تابع فوق تحت قیدهای زیر مقادیر ضرایب a و a بهدست میآیند. این ضرایب ضرایب الگرانژ نامیده میشوند.

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 8 a i = a i { 0 a i C for i = 1 0 a i C, 2, 3,, k ) 13( مساله بهینه سازی فوق به کمك روش های برنامه ریزی درجه دو( QP ) قابل حل میباشد. در نتیجه رسیدن به اکسترمم کلی نیز قطعی خواهد بود وخطر به دام افتادن در اکسترمم محلی وجود ندارد. دادههاییکه ضرایب الگرانژ متناظر با آنها غیرصفر باشد به عنوان بردار پشتیبان شناخته میشوند. این دادهها از نظر هندسی دارای خطای پیشبینی بزرگتر از ε هستند. بنابراین بردارهای پشتیبان درون باند ε قرار نمیگیرند و مقدار ε تعداد بردارهای پشتیبان را کنترل میکند. به کمك ضرایب الگرانژ و بردارهای پشتیبان پارامترهای کنترل کننده پاسخ بهینه به صورت زیر محاسبه میشود. W 0 = (a i a i )x i ) 14( b 0 = ( 1 2 ). W 0. [x r + x s ] ) 15( f(x) = (a i a i ) (x i x) + b 0 ) 16( كیc در رابطه فوق x s و x r دو بردار پشتیبان هستند. برای ساخت مدل ماشین بردار پشتیبان پارامترهای c و ε توسط کاربر تعریف میشوند. پارامتر پارامتر تنظیمی است و میتواند مقادیر صفر تا بی نهایت را بپذیرد. نقش این پارامتر ایجاد تعادل میان کمینه کردن ریسك تجربی وبیشینه کردن قابلیت تعمیم یابی است. پارامتر ε نیز میتواند مقادیر صفر تا بی نهایت را بپذیرد. مقدار این پارامتر در وضعیت بردارهای پشتیبان و در نتیجه کارایی مدل بسیار موثر است.

9 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... از منظور مساله رگرسیون خطی در SVM به آسانی قابل گسترش به رگرسیون غیر خطی است. بدین توابع کرنل استفاده میشود. تاکنون کرنلهای گوناگونی از جمله کرنلهای چند جملهای و پایه شعاعی( RBF ) شناخته شدهاند. بدین ترتیب در حالت رگرسیون غیرخطی SVM پارامترهای کنترل کننده تابع بهینه با روابط زیر محاسبه میشوند )سنچس 2003( W. X = (a i a i )K(x i, x) b 0 = 1 2 (a i a i )[K(x r, x i ) + K(x s, x i )] ) 17( ) 19( در این روابط K(x i نشانگر تابع کرنل میباشد., x) موجودات طبیعی گاهی به صورت یك توده رفتار می کنند. یکی از جریانهای اصلی در پژوهش زندگی مصنوعی بررسی چگونگی رفتار موجودات طبیعی به صورت یك توده و پیاده سازی دوباره مدل توده ها در رایانه است. یك روش جدید بهینه سازی با استفاده از همانند سازی رفتار گروهی موجودات طبیعی در اوایل دهه 1990 ابداع شد. ابرهارت و کندی) 1995 ( بهینه سازی ذرات انبوه )PSO( را بر اساس شبیه سازی از توده های پرندگان و دسته ماهی ها توسعه دادند. هر فرد تجارب قبلی خود را در PSO مبادله می کند. PSO برای حل مسایل بهینه سازی غیرخطی با متغیرهای پیوسته ایجاد شده است. عالوه بر این بر خالف روش های تکاملی دیگر مانند الگوریتم ژنتیك PSO می تواند با تنها یك برنامه کوچك پیادهسازی شود. این قابلیت PSO یکی از مزیتهای آن در مقایسه با دیگر تکنیكهای بهینه سازی است. PSO روشی مبتنی بر تکنیك هایی تصادفی است که از آن می توان برای پیدا کردن مینیمم سراسری )غیر قطعی( مسایل برنامه ریزی غیرخطی استفاده کرد. کندی و ابرهارت PSO را از طریق شبیه سازی دسته پرندگان توسعه دادند. موقعیت هر عامل با s و همچنین سرعت آن با v نمایش داده می شود. اصالح موقعیت عامل با استفاده از اطالعات موقعیت و سرعت صورت میگیرد. دسته پرندگان یك تابع هدف خاص را بهینه سازی میکنند. هر عامل بهترین مقدار تجربه کرده را pbest و موقعیت فعلی را s می داند. این اطالعات تجربیات شخصی هر عامل است. عالوه بر

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 10 این هر عامل بهترین مقدار به دست آمده در گروه را gbest می داند. هر عامل تالش می کند تا موقعیت خود را با استفاده از اطالعات زیر تغییر دهد: موقعیت فعلی s سرعت فعلی v بهترین موقعیت شخصی pbest بهترین موقعیت گروهی.gbest سرعت هر عامل را می توان از معادله زیر به دست آورد: ) 20( که در آن گروه است. ν k+1 i = wν k i + c 1 randd 1 (pbest i s k i ) + c 2 rand 2 (gbest s k i ) k gbest gbest است و i نقطه pbest pbest i ام k در تکرار i سرعت عامل ν i معنای طرف راست معادله می تواند به صورت زیر بیان شود. طرف راست معادله دارای سه جمله است. نخستین جمله سرعت قبلی عامل است. جمالت دوم و سوم برای تغییر سرعت عامل است. بدون جمالت دوم و سوم عامل پرواز در جهت قبلی خود ادامه خواهد داد تا به مرز برخورد کند. عامل سعی می کند ناحیه های جدید را جستجو کند و بنابراین نخستین جمله با تنوع در روند جستجو متناظر است. به عبارت دیگر بدون جمله نخست سرعت پرواز عامل تنها با استفاده از موقعیت فعلی و بهترین موقعیت آن در گذشته تعیین می شود. عوامل سعی خواهند کرد با pbest ها و یا gbest همگرا شوند. شکل 2

11 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... موقعیت فعلی نقطه جستجو در فضای جواب را می توان با معادله زیر اصالح کرد: s i k+1 = s i k + ν i k+1 ) 21( هر عامل موقعیت فعلی خود را با استفاده از ترکیب بردارهای نشان داده شده در شکل 8 اصالح میکند. در واقع PSO از چندین نقطه جستجو استفاده می کند و نقاط جستجو تدریجی به نقطه بهینه با استفاده از pbest ها و gbest نزدیك می شوند. شکل 3. جست و جو با عوامل در فضای جواب با PSO نوری و همکاران )1389( در مقالهای تحت عنوان "پیشبینی ماهانه جریان آب با استفاده از ماشین بردار پشتیبان بر مبنای آنالیز مولفه اصلی" با هدف بررسی تاثیر انتخاب متغیرهای ورودی به کمك آنالیز مولفه اصلی عملکرد مدل ماشین بردار پشتیبان را مورد بررسی قرار دادند. به این منظور ابتدا با استفاده از 18 متغیر ورودی به مدل SVM دبی جریان ماهانه پیشبینی شد. سپس با استفاده از آنالیز مولفه اصلی تعداد متغیرهای ورودی به مدل ماشین بردار پشتیبان از 18 متغیر به 5 مولفه کاهش یافت. در نهایت با استفاده از آماره توسعه یافته توسط نویسندگان مقاله عملکرد مدلهای داده شده مورد ارزیابی قرار گرفت. این پژوهش نشان داد که پیشپردازش متغیرهای ورودی به SVM بهبود عملکرد SVM را به همراه داشته است. کیانی و همکاران) 1387 ( در مقالهای تحت عنوان" بررسی میزان دقت دستهبندی ماشین بردار پشتیبان در ارزیابی اعتباری بانکی" برای ارزیابی دقت دستهبندی دو مجموعه داده اعتباری را با

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 12 استفاده از ماشینهای بردار پشتیبان مورد تجزیه و تحلیل قرار دادند. با توجه به نتایج بهدست آمده دستهبندی کننده ماشین بردار پشتیبان در مقایسه با شبکههای عصبی برنامهنویسی ژنتیکی و دستهبندی کننده درخت تصمیم با وجود در بر داشتن ویژگیهای کمتر در ورودی به نتایج مشابهی دست پیدا میکنند. با تعیین میزان دقت نتایج بهدست آمده میتوان به این نتیجه رسید که ماشین بردارپشتیبان یك روش جدید و قابل اطمینان در میان دیگر روشهای دادهکاوی است. چیجیلو و همکاران )2013( در مقالهای تحت عنوان "پیشبینی شاخص با مدل هیبریدی آنالیز مولفههای مستقل و رگرسیون بردارپشتیبان با بهینهسازی حرکت تجمعی ذرات" به پیشبینی شاخص بورسهای چین تایوان و هند پرداختند. آنها در این مقاله بیشترین کمترین و مقدار پایانی و مقدار باز شدن شاخص در روز جاری را به عنوان متغیر برای پیشبینی در نظر گرفتند. آنها در پایان به این نتیجه رسیدند که مدل ترکیبی شاخص را با خطای کمتری نسبت به مدل SVR پیشبینی میکند. لی و همکاران )2014( در مقالهای تحت عنوان " پیشبینی نفت خام با مدلهای نوفهزدایی شده چندمقیاسه" اقدام به پیشبینی قیمت نفت خام نمودند. آنها از مدل ARIMA برای پیشبینی قیمت نفت استفاده نمودند و چون این مدل یك مدل خطی میباشد برای پیشبینی بخش غیرخطی سری زمانی مدل ماشین بردار پشتیبان را به کار بردند. در این پژوهش برای جلوگیری از تاثیر نوسانهای قیمت نفت از نوفهزدایی موجك استفاده نمودند که نتایج حاکی از بهبود قدرت پیشبینی مدل بوده است. چان چانگ و همکاران در سال 2015 در مقالهای تحت عنوان "مدل فازی ترکیب شده با رگرسیون بردار پشتیبان برای پیشبینی معامالت سهام" یك روش جدید برای شناسایی سیگنالهای معامالتی دادند. در این مقاله از یك مدل مبتنی بر قوانین فازی استفاده شده است که میتوان سیگنالهای معامالتی را بر مبنای متغیرهای تکنیکال و رگرسیون بردارپشتیبان شناسایی نمود. این مدل با مدلهای رگرسیون خطی معمولی و شبکههای عصبی مصنوعی مورد مقایسه قرار گرفته که نتایج نشان میدهد مدل پیشنهادی بازدههای بیشتری نسبت به مدل های رگرسیون خطی معمولی و شبکههای عصبی مصنوعی به دست میآورد. فرضیههاي پژوهش در مورد فرضیه پژوهش باید بیان نمود که نظر به اثبات برتری دقت پیشبینی مدل رگرسیون بردار پشتیبان نسبت به سایر روشهای پیشبینی در مطالعات گذشته هدف اصلی این پژوهش بهبود

13 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... پیشبینی رگرسیون بردار پشتیبان با استفاده از پیشپردازش دادهها به وسیله آنالیز مولفههای اصلی میباشد. بنابراین فرضیه پژوهش به صورت زیر بیان میشود: دارد. پیشبینی مدل ترکیبی PCA-SVR-PSO نسبت به پیشبینی مدل SVR-PSO خطای کمتری روششناسي پژوهش در پژوهش حاضر تالش میشود مدلی از ترکیب روشهای آماری و هوش مصنوعی برای پیشبینی شاخص بورس اوراق بهادار تهران داده شود. با توجه به مطالب بخش مبانی نظری پژوهش مولفههای اصلی وسیلهای برای رسیدن به هدف هستند تا اینکه خودشان هدف باشند. زیرا آنها اغلب به عنوان مراحل میانی در وضعیتهای بزرگتر به کار میآیند. برای مثال مولفههای اصلی میتوانند ورودیهای یك رگرسیون چندگانه یا تحلیل خوشهای باشند. در این پژوهش برای پیشبینی شاخص بورس اوراق بهادار مطابق با پژوهش لو و همکاران) 2013 ( از چهار متغیر شامل مقدار آغازین بیشترین مقدار کمترین مقدار و مقدار پایانی شاخص بورس اوراق بهادار استفاده شده است. به دلیل امکان وجود همبستگی و همخطی میان دادهها که باعث ایجاد تورش در مقادیر پیشبینی میشود با استفاده از روش آنالیز مولفههای اصلی چهار متغیر ورودی به چهار مولفه اصلی پوشش دهنده کل پراکندگی دادهها تبدیل شده است. چهار مولفه اصلی استخراج شده از دادههای ورودی به طور کامل مستقل از یکدیگر میباشند که به عنوان ورودی مدل پیشبینی مورد استفاده قرار میگیرد. به طور خالصه سازوکار اصلی SVM در حل مساله رگرسیون به صورت زیر بیان میشود: 1- ماشین بردار پشتیبان تابع رگرسیون را با به کارگیری یك دسته تابع خطی تخمین میزند. 2- ماشین بردار پشتیبان عملیات رگرسیون را با تابعی انجام میدهد که انحراف از مقدار واقعی در آن به میزان کمتر از ε مجاز است)تابع ضرر(. 3- ماشین بردار پشتیبان با کمینهکردن ریسك ساختاری بهترین جواب را میدهد. با توجه به توضیحات در باره مفهوم ریاضی مدل SVR این مدل در نرمافزار MATLAB شبیهسازی شده است. سپس مولفههای اصلی خروجی از مدل PCA را به عنوان ورودی برای این مدل در نظر گرفته و مدل را با توجه به دادههای آموزش برازش کرده و سپس با توجه به ورودیهای

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 14 آزمایش مقدار شاخص برای 20 روز آینده را پیشبینی کرده و با مقادیر واقعی مقایسه مینماییم و با توجه به معیارهای ارزیابی MAPE و RMSE دقت پیشبینی مدل را اندازهگیری مینماییم. در مرحله قبل مدل اصلی پیشبینی SVR را برازش نمودیم. برای ساخت مدل رگرسیون بردار پشتیبان پارامترهای c و ε و σ توسط کاربر تعریف میشوند. پارامتر c یك پارامتر تنظیمی است و میتواند مقادیر صفر تا بینهایت را بپذیرد. نقش این پارامتر ایجاد تعادل میان کمینه کردن ریسك تجربی و بیشینه کردن قابلیت تعمیمیابی است. پارامتر ε نیز میتواند مقادیر صفر تا بینهایت را بپذیرد. مقدار این پارامتر در وضعیت بردارهای پشتیبان و در نتیجه کارایی مدل بسیار موثر است. σ نیز عرض کرنل با پایه شعاعی میباشد و مقدار آن توسط کاربر تعیین میشود. چون کاربر ممکن است دقت الزم برای انتخاب این پارامترها را نداشته باشد انتخاب این پارامترها را با مدل PSO انجام دادهایم تا خطای مدل SVR به کمترین حد خود برسد. الگوریتم کلی مدل پیشبینی به شکل زیر میباشد: شکل 4. الگوریتم کلی مدل پیشبینی

15 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... تجزيه و تحلیل دادهها و آزمون فرضیهها در این قسمت یافتههای پژوهش و تجزیه و تحلیل آنها آورده شده است. به منظور بررسی بهبود در قدرت پیشبینی مدل دادههای شاخص کل بورس اوراق بهادار و شاخص 50 شرکت 1 هب فعالتر از سال 1391 تا 1395 با استفاده از تکنیك پنجره غلتان و سپس برای هر دوره پیشبینی با مدل های پنج دوره زمانی برابر تقسیم شده SVR-PSO )استفاده از دادههای معمولی برای پیش- بینی با رگرسیون بردار پشتیبان(و PCA-SVR-PSO )استفاده از مولفههای اصلی خروجی از روش آنالیز مولفههای اصلی به عنوان وردی مدل رگرسیون بردار پشتیبان برای پیشبینی( در 20 روز آینده انجام گرفته و سپس با مقادیر واقعی مقایسه و معیارهای میانگین مربع خطا و درصد قدر مطلق خطا استخراج شده است. سپس به منظور بررسی معنادار بودن تفاوت میانگین خطاهای دو مدل از آزمونهای تی-استیودنت و دایبولد-ماریانو استفاده شده است. با برازش هر یك از مدلهای SVR-PSO و PCA-SVR-PSO معیار ارزیابی عملکرد ریشه میانگین مربع خطا در جدول 1 نشان داده شده است. همانطور که دیده میشود مدل PCA-SVR-PSO نسبت به مدل SVR-PSO در تمامی دورهها عملکرد بهتری داشته است و از لحاظ میانگین 5 دوره نیز خطای کمتری را نمایش میدهد. برای آزمون فرضیه پژوهش مبنی بر عملکرد بهتر مدل PCA- SVR-PSO نسبت به مدل SVR-PSO معنادار بودن تفاوت میانگین این دو مدل بررسی شده است. معنیدار بودن تفاوت نشان میدهد که عملکرد مدل معنیداری از مدل SVR-PSO بهتر است. PCA-SVR-PSO به صورت جدول 1. ریشه میانگین مربع خطا شاخص 50 شرکت فعالتر شاخص کل PCA-SVR-PSO SVR-PSO PCA-SVR-PSO SVR-PSO دوره میانگین 1. Rolling window

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 16 با برازش هر یك از مدلهای SVR-PSO و PCA-SVR-PSO معیار ارزیابی عملکرد میانگین درصد قدرمطلق خطا در جدول 2 نشان داده شده است. همانطور که دیده میشود مدل PCA-SVR-PSO نسبت به مدل SVR-PSO در تعداد روزهای بیشتری عملکرد بهتری داشته است و از لحاظ میانگین پیشبینی 20 روزه نیز خطای کمتری را نمایش میدهد. برای آزمون فرضیه پژوهش مبنی بر عملکرد بهتر مدل PCA-SVR-PSO نسبت به مدل SVR-PSO معنادار بودن تفاوت میانگین این دو مدل بررسی شده است. معنیدار بودن تفاوت نشان میدهد که عملکرد مدل PCA-SVR-PSO به صورت معنیداری از مدل SVR-PSO بهتر است. جدول 2. درصد قدرمطلق خطا شاخص 50 شرکت فعالتر PCA-SVR-PSO SVR-PSO SVR-PSO دوره شاخص کل PCA-SVR-PSO میانگین در آزمون فرضیه نخست عملکرد دو مدل PCA-SVR-PSO و SVR-PSO در پیش بینی شاخص کل مورد آزمایش قرار میگیرد. این فرضیه را از طریق هر دو معیار ارزیابی عملکرد میانگین قدرمطق درصد خطا و ریشه میانگین قدرمطلق خطا آزمون میکنیم. { بین دو جامعه میانگین قدرمطلق درصد خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود ندارد = 0 H بین دو جامعه میانگین قدرمطلق درصد خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود دارد = 1 H

17 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... جدول 3. آزمون مقایسه زوجی قدرمطلق درصد خطا-شاخص کل آزمون مقایسههای زوجی قدرمطلق درصد خطای مدل های svr-pso و pca-svr-pso PCA-SVR-PSO SVR-PSO سطح خطای 5 درصد میانگین واریانس تعداد مشاهدهها درجه آزادی آماره t مقدار بحرانی آزمون یک طرفه مقدار بحرانی آزمون دوطرفه prob آزمون یک طرفه آزمون دوطرفه prob مدل همانطور که آزمون مقایسههای زوجی باال نشان میدهد میانگین قدرمطلق درصد خطای PCA-SVR-PSO از مدل SVR-PSO کمتر میباشد. با توجه به جدول فوق آماره t محاسبه شده از مقدار بحرانی سطح خطای 5 درصد باالتر است. بنابراین در سطح خطای پنج درصد فرضیه مدل H 0 رد و فرضیه H 1 به اثبات میرسد که حاکی از تفاوت معنیدار قدر مطلق درصد خطای دو مدل است. در صورتی که آزمون فوق را به صورت یك طرفه انجام بدهیم با توجه به جدول فوق فرضیه H 0 مبنی بر بزرگتر و یا مساوی بودن قدر مطلق درصد خطای مدل PCA-SVR-PSO نسبت به مدل SVR-PSO رد و فرضیه اصلی پژوهش مبنی بر باال بودن دقت میشود. PCA-SVR-PSO نسبت به مدل SVR-PSO در پیشبینی شاخص بورس تایید { بین دو جامعه ریشه میانگین مربع خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود ندارد = 0 H بین دو جامعه ریشه میانگین مربع خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود دارد = 1 H

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 18 جدول 4. آزمون مقایسه زوجی ریشه میانگین مربع خطا-شاخص کل pca-svr-pso و svr-pso PCA-SVR-PSO آزمون مقایسههای زوجی ریشه میانگین مربع خطای مدل های SVR-PSO میانگین واریانس تعداد مشاهدهها درجه آزادی آماره سطح خطای 5 درصد t مقدار بحرانی آزمون یک طرفه مقدار بحرانی آزمون دوطرفه prob آزمون یک طرفه آزمون دوطرفه prob جدول فوق نتایج آزمونمقایسههایزوجی ریشه میانگین مربع خطای مدلهایPCA-SVR-PSOو- SVR PCA-SVR-PSO نشان میدهد. نتایج جدول فوق حاکی از پایینتر بودن ریشه میانگین مریع خطای مدل PSOرا نسبت به مدل SVR-PSOمیباشد. جدول فوق رد فرضیه Hرا 0 در سطح خطای پنج درصد تایید میکند. بنابراین در سطح خطای پنج درصد مدل PCA-SVR-PSO نسبت به مدلSVR-PSO با توجه به معیار ارزیابی عملکرد ریشه میانگین مربع خطا عملکرد بهتری در پیش بینی شاخص کل دارد. همانگونه که گفته شد عالوه بر آزمون مقایسههای زوجی برای بررسی معناداری تفاوت بین میانگین دو جامعه ریشه میانگین مجذور خطا و درصد قدرمطلق خطا از دو آماره دایبولد-ماریانو و آماره هاروی-لیبورن-نیوبولد)آماره تعدیل شده دایبولد-ماریانو( نیز بهره گرفته شده است که نتایج آن به شرح جدول 5 میباشد.

19 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... آزمون دایبولد-ماریانو برای معیارهای ارزیابیعملکرد محاسبه شده برای شاخص کل به صورت زیر میباشد: معیار ارزیابی عملکرد جدول 5. آزمون دایبولد-ماریانو آماره دایبولد-ماریانو آماره تعدیل شده دایبولد-ماریانو RMSE MAPE با توجه به توزیع آماری s فرضیه قدرت پیش بینی یکسان را در سطح %95 زمانی رد می کنیم که داشته باشیم: S > 1/96 با توجه به آمارههای باال نتیجه میگیریم که عملکرد مدل PCA-SVR-PSO به طور معنی- داری بهتر از مدل SVR-PSO در پیشبینی شاخص کل میباشد. در آزمون فرضیه دوم عملکرد دو مدل PCA-SVR-PSO و SVR-PSO در پیش بینی شاخص 50 شرکت برتر مورد آزمون قرار میگیرد. این فرضیه را از طریق هر دو معیار ارزیابی عملکرد میانگین قدرمطق درصد خطا و ریشه میانگین قدرمطلق خطا آزمون میکنیم. بین دو جامعه میانگین قدرمطلق درصد خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود ندارد = 0 H { بین دو جامعه میانگین قدرمطلق درصد خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود دارد = 1 H جدول 6. آزمون مقایسه زوجی قدر مطلق درصد خطا- شاخص 50 شرکت آزمون مقایسههای زوجی قدرمطلق درصد خطای مدل های svr-pso و pca-svr-pso PCA-SVR-PSO SVR-PSO 0/892 میانگین 0/033 واریانس تعداد مشاهده ها درجه آزادی آماره t مقدار بحرانی آزمون یک طرفه سطح خطای مقدار بحرانی آزمون دوطرفه 5 درصد prob آزمون یک طرفه آزمون دوطرفه prob

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 20 همانطور که آزمون مقایسههای زوجی باال نشان میدهد میانگین قدرمطلق درصد خطای مدل PCA-SVR-PSO از مدل SVR PSO کمتر میباشد. با توجه به جدول فوق آماره t محاسبه شده از مقدار بحرانی سطح خطا 5 درصد باالتر است. بنابراین فرضیه H 0 رد و فرضیه H 1 حاکی از تفاوت معنیدار قدرمطلق درصد خطای دو مدل به اثبات میرسد. در صورتی که آزمون فوق را به صورت یك طرفه انجام بدهیم با توجه به جدول 6 فرضیه H 0 مبنی بر بزرگتر و یا مساوی بودن قدر مطلق درصد خطای مدل PCA-SVR-PSO نسبت به مدل SVR-PSO رد و فرضیه اصلی پژوهش مبنی بر باال بودن دقت مدل PCA-SVR-PSO نسبت به مدل SVR-PSO در پیشبینی شاخص 50 شرکت فعالتر تایید میشود. بین دو جامعه ریشه میانگین مربع خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود ندارد = 0 H { بین دو جامعه ریشه میانگین مربع خطای مدلهای SVR PSO و PCA SVR PSO اختالف معناداری وجود دارد = 1 H جدول 7. آزمون مقایسه زوجی ریشه میانگین مربع خطا-شاخص 50 شرکت آزمون مقایسههای زوجی ریشه میانگین مربع خطای مدل های svr-pso و pca-svr-pso PCA-SVR-PSO SVR-PSO سطح خطای 5 درصد میانگین واریانس تعداد مشاهده ها درجه آزادی آماره t مقدار بحرانی آزمون یک طرفه مقدار بحرانی آزمون دوطرفه prob آزمون یک طرفه آزمون دوطرفه prob جدول فوق نتایج آزمون مقایسههای زوجی ریشه میانگین مربع خطای مدلهای PCA-SVR-PSO و SVR-PSO را نشان میدهد. نتایج جدول 7 حاکی از پایینتر بودن ریشه میانگین مریع خطای مدل PCA-SVR-PSO نسبت به مدل SVR-PSO میباشد. جدول فوق رد فرضیه H 0 در سطح خطای پنج

21 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... درصد را تایید میکند. بنابراین در سطح خطای پنج درصد مدل PCA-SVR-PSO نسبت به مدل SVR- PSO با توجه به معیار ارزیابی عملکرد ریشه میانگین مربع خطا عملکرد بهتری در پیش بینی شاخص 50 شرکت فعالتر دارد. آزمون دایبولد-ماریانو برای معیارهای ارزیابی عملکرد محاسبه شده در شاخص 50 شرکت فعالتر به صورت جدول 8 میباشد. جدول 8. آزمون دایبولد-ماریانو شاخص 50 شرکت آماره دایبولد- آماره تعدیل شده دایبولد- ماریانو ماریانو معیار ارزیابی عملکرد RMSE MAPE با توجه به توزیع آماری s فرضیه قدرت پیش بینی یکسان را در سطح %95 زمانی رد می کنیم که داشته باشیم: S > 1/96 با توجه به آمارههای باال نتیجه میگیریم که عملکرد مدل معنیداری بهتر از مدل PCA-SVR-PSO به طور SVR-PSO در پیشبینی شاخص 50 شرکت فعالتر میباشد. نتیجهگیري و بحث در پژوهش حاضر فرض بر این است که پاالیش اولیه دادهها به کاهش خطای پیشبینی میانجامد. در ابتدا مدل SVR برای پیشبینی شاخص کل بورس اوراق بهادار تهران در نرمافزار متلب شبیه سازی شده و سپس با استفاده از PCA متغیرهای ورودی به مولفههای اصلی تجزیه شده و به عنوان ورودی برای مدل SVR انتخاب شده است. در مدل سازی SVR پارامترهای c و ε و σ توسط کاربر تعریف میشوند. پارامتر c یك پارامتر تنظیمی است و میتواند مقادیر صفر تا بینهایت را بپذیرد. نقش این پارامتر ایجاد تعادل میان کمینه کردن ریسك تجربی و بیشینه کردن قابلیت تعمیمیابی است. پارامتر ε نیز میتواند مقادیر صفر تا بینهایت را بپذیرد. مقدار این پارامتر

راهبردمديريت مالي سال چهارم شماره پانزدهم زمستان 1395 22 در وضعیت بردارهای پشتیبان و در نتیجه کارایی مدل بسیار موثر است. σ نیز عرض کرنل با پایه شعاعی میباشد و مقدار آن توسط کاربر تعیین میشود. فرض بر این است که کاربر ممکن است در انتخاب دقیق پارامترهای مذکور دچار اشتباه شود که برای جلوگیری از این اشتباه انتخاب پارامترهای مدل با الگوریتم بهینه سازی PSO که یك الگوریتم قوی و جدید در حوزه بهینهسازی است به نحوی انجام شده تا خطای پیشبینی مدل کاهش یابد. پس از برازش مدلها مقدار شاخص برای یك روز آینده تا 20 روز پیشبینی و سپس دقت مدلها در پیشبینی شاخص با معیارهای ارزیابی عملکرد MAPE و RMSE اندازه گیری شده است. به منظور مقایسه عملکرد مدلهای PCA-SVR-PSO و SVR-PSO از آزمون مقایسههای زوجی استفاده شده که در نهایت نتایج حاکی از باالتر بودن دقت پیشبینی مدل PCA-SVR-PSO نسبت به مدل SVR-PSO بود. بنابراین نتیجه میگیریم که انتخاب صحیح ورودیها و کاهش بعد دادهها میتواند باعث بهبود عملکرد ماشینهای بردار پشتیبان در پیشبینی سری زمانی شاخص بورس اوراق بهادار تهران شود.

23 پیشبینی شاخص بورس اوراق بهادار تهران با ترکیبروشهای آنالیز... منابع بروکز کریس 1389 اقتصاد سنجی مالی و تجزیه و تحلیل دادهها در علوم انسانی ترجمه بدری احمد و عبدالباقی عبدالمجید جلد 1 موسسه عملی فرهنگی نص چاپ اول. جانسون ریچارد. 1378 تحلیل آماری چند متغیری کاربردی ترجمه نیرومند حسینعلی. دانشگاه فردوسی مشهد چاپ سوم. کیانی محمد فریدون. میرعرب شاهی رامین. حسین خانی ابراهیم. 1387 تعیین میزان دقت دستهبندی کننده ماشین بردارپشتیبان در ارزیابی اعتباری بانکی دومین همایش ملی مهندسی برق کامپیوتر و فناوری اطالعات صص 208-200. نوری روحاله. خاکپور امیر. دهقانی مجید. فرخنیا اشکان. 1389 پیشبینی ماهانه جریان آب با استفاده از ماشین بردارپشتیبان بر مبنای آنالیز مولفه اصلی فصلنامه علمی و پژوهشی آب و فاضالب دوره 22 شماره 1 صص 123-118 Chi-Jie, Lu. (2013). Hybridizing nonlinear independent component analysis and support vector regression with particle swarm optimization for stock index forecasting, Neural Applied & Soft computing, volume 40, pp. 164-178. Gunn, steve.(1998). Support Vector Machines for Classification and Regression, university of SOUTHAMPTON, chapter 2, pp. 5-16. Kenndy, J. Eberhart, R.C.(1995). Particle Swarm Optimization. In Proceedings of the IEE International Conference on Neural Networks IV. Li. Xia, He. Kaijjian.(2014). Forecasting Crude Oil Price With Multiscale Denoising Ensemble Model, Mathematic Problems in Engineering, pp.1-19 Lipo, W. (2005), Support Vector Machines, Theory and Application, university of Auckland. Pei. Chann Chang, Jhen. Wu, Jyun. Lin.(2015), A Takagi-Sugeno fuzzy model combined with a support vector regression for stock trading forecasting, Applied Soft Computing, volume 38, pp. 831-842. Sanches, D. (2003). Advanced Support Vector Machines and Kernel methods, Neurocomputing, volume 55, pp. 5-20.